gRPC 服务间调用负载均衡方案

业务场景介绍

假设我们有一个电商微服务系统，包含以下核心服务：

用户服务（User Service）：处理用户注册、登录、信息管理
订单服务（Order Service）：处理订单创建、查询、状态更新
库存服务（Inventory Service）：管理商品库存
支付服务（Payment Service）：处理支付逻辑

在这个场景中，当用户下单时，订单服务需要同时调用库存服务检查库存、调用用户服务验证用户信息、调用支付服务处理支付。每个服务都有多个实例，如何选择调用哪个实例就是我们要解决的负载均衡问题。

方案一：Kubernetes 原生服务发现 + DNS 负载均衡

场景应用：Kubernetes 环境下最简单直接的方案

Kubernetes 通过 Service 资源提供内置的服务发现和负载均衡，DNS 解析会返回所有健康的 Pod IP。

Kubernetes Service 配置：

# inventory-service.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: inventory-service
spec:
  replicas: 3
  selector:
    matchLabels:
      app: inventory-service
  template:
    metadata:
      labels:
        app: inventory-service
    spec:
      containers:
      - name: inventory-service
        image: inventory-service:v1.0
        ports:
        - containerPort: 8080
          name: grpc
        env:
        - name: POD_IP
          valueFrom:
            fieldRef:
              fieldPath: status.podIP
        readinessProbe:
          exec:
            command: ["/bin/grpc_health_probe", "-addr=:8080"]
          initialDelaySeconds: 5
          periodSeconds: 10
        livenessProbe:
          exec:
            command: ["/bin/grpc_health_probe", "-addr=:8080"]
          initialDelaySeconds: 15
          periodSeconds: 20

---
apiVersion: v1
kind: Service
metadata:
  name: inventory-service
spec:
  selector:
    app: inventory-service
  ports:
  - name: grpc
    port: 8080
    targetPort: 8080
    protocol: TCP
  type: ClusterIP
  sessionAffinity: None  # 关闭会话保持，启用负载均衡

关闭这个会话保持后，它

订单服务调用代码：

// 订单服务通过 Kubernetes Service 调用库存服务
func (s *OrderService) CreateOrder(ctx context.Context, req *pb.CreateOrderRequest) (*pb.CreateOrderResponse, error) {
    // 直接使用 Kubernetes Service 名称
    // kube-proxy 会自动进行负载均衡
    conn, err := grpc.Dial("inventory-service:8080", 
        grpc.WithInsecure(),
        grpc.WithKeepaliveParams(keepalive.ClientParameters{
            Time:                10 * time.Second,
            Timeout:            3 * time.Second,
            PermitWithoutStream: true,
        }),
    )
    if err != nil {
        return nil, fmt.Errorf("连接库存服务失败: %v", err)
    }
    defer conn.Close()
    
    inventoryClient := inventory_pb.NewInventoryServiceClient(conn)
    
    // Kubernetes 自动负载均衡到可用的 Pod
    inventoryResp, err := inventoryClient.CheckInventory(ctx, &inventory_pb.CheckInventoryRequest{
        ProductId: req.ProductId,
        Quantity:  req.Quantity,
    })
    if err != nil {
        return nil, fmt.Errorf("库存检查失败: %v", err)
    }
    
    return processOrder(inventoryResp, req)
}

// 连接池优化
type K8sGRPCClient struct {
    connections sync.Map // 服务名 -> *grpc.ClientConn
    mutex       sync.Mutex
}

func (k *K8sGRPCClient) GetConnection(serviceName string) (*grpc.ClientConn, error) {
    if conn, ok := k.connections.Load(serviceName); ok {
        return conn.(*grpc.ClientConn), nil
    }
    
    k.mutex.Lock()
    defer k.mutex.Unlock()
    
    // 双重检查
    if conn, ok := k.connections.Load(serviceName); ok {
        return conn.(*grpc.ClientConn), nil
    }
    
    // 创建新连接
    conn, err := grpc.Dial(fmt.Sprintf("%s:8080", serviceName),
        grpc.WithInsecure(),
        grpc.WithKeepaliveParams(keepalive.ClientParameters{
            Time:    30 * time.Second,
            Timeout: 5 * time.Second,
        }),
    )
    if err != nil {
        return nil, err
    }
    
    k.connections.Store(serviceName, conn)
    return conn, nil
}

K8s 负载均衡算法配置：

# 使用 IPVS 模式获得更好的性能
apiVersion: v1
kind: ConfigMap
metadata:
  name: kube-proxy-config
  namespace: kube-system
data:
  config.conf: |
    apiVersion: kubeproxy.config.k8s.io/v1alpha1
    kind: KubeProxyConfiguration
    mode: "ipvs"
    ipvs:
      scheduler: "rr"  # round-robin
      # 其他算法: lc (least connection), dh (destination hashing)
    clusterCIDR: "10.244.0.0/16"

优势：

零配置：无需额外的服务发现组件
原生集成：完全利用 Kubernetes 生态
自动健康检查：基于 Pod readiness/liveness 探针
高可用：kube-proxy 在每个节点运行，无单点故障

适用场景：

Kubernetes 原生环境
简单的负载均衡需求
不需要复杂路由规则的应用

补充：会话保持 vs 负载均衡机制

sessionAffinity 的含义

# 当前配置
sessionAffinity: None  # 关闭会话保持

# 对比：启用会话保持
sessionAffinity: ClientIP  # 基于客户端IP的会话保持
sessionAffinityConfig:
  clientIP:
    timeoutSeconds: 10800  # 3小时

注意 sessionAffinity 只影响"连接建立时"的路由决策，这个设置不影响连接保活

会话关闭后的连接行为

连接层面 vs 请求层面

// 客户端代码示例
func main() {
    // 建立长连接到 Service VIP
    conn, err := grpc.Dial("inventory-service:8080", 
        grpc.WithInsecure(),
        grpc.WithKeepaliveParams(keepalive.ClientParameters{
            Time:                10 * time.Second,
            Timeout:             3 * time.Second,
            PermitWithoutStream: true,
        }),
    )
    defer conn.Close()
    
    client := pb.NewInventoryServiceClient(conn)
    
    // 多次请求使用同一连接
    for i := 0; i < 100; i++ {
        // 每个请求可能被路由到不同的 Pod
        resp, err := client.GetInventory(ctx, &pb.GetInventoryRequest{
            ProductId: fmt.Sprintf("product-%d", i),
        })
        time.Sleep(1 * time.Second)
    }
}

方案二：Headless Service + gRPC 客户端负载均衡

场景应用：需要客户端直连 Pod，获得最佳性能

Headless Service 不分配 ClusterIP，DNS 直接返回所有 Pod IP，客户端可以实现自定义负载均衡。

Headless Service 配置：

# headless-inventory-service.yaml
apiVersion: v1
kind: Service
metadata:
  name: inventory-service-headless
spec:
  clusterIP: None  # Headless Service
  selector:
    app: inventory-service
  ports:
  - name: grpc
    port: 8080
    targetPort: 8080
    protocol: TCP

---
# 为了服务发现，还需要配置 Endpoints
apiVersion: v1
kind: Endpoints
metadata:
  name: inventory-service-headless
subsets:
- addresses:
  - ip: 10.244.1.10
    targetRef:
      kind: Pod
      name: inventory-service-pod-1
  - ip: 10.244.1.11
    targetRef:
      kind: Pod
      name: inventory-service-pod-2
  ports:
  - name: grpc
    port: 8080
    protocol: TCP

自定义 gRPC 解析器实现：

// Kubernetes Headless Service 解析器
type K8sResolver struct {
    target     resolver.Target
    cc         resolver.ClientConn
    serviceName string
    namespace   string
    client      kubernetes.Interface
    ctx         context.Context
    cancel      context.CancelFunc
}

func (r *K8sResolver) ResolveNow(resolver.ResolveNowOptions) {
    go r.resolve()
}

func (r *K8sResolver) resolve() {
    // 获取 Endpoints
    endpoints, err := r.client.CoreV1().Endpoints(r.namespace).Get(
        context.TODO(), r.serviceName, metav1.GetOptions{})
    if err != nil {
        log.Printf("获取 Endpoints 失败: %v", err)
        return
    }
    
    var addresses []resolver.Address
    for _, subset := range endpoints.Subsets {
        for _, addr := range subset.Addresses {
            for _, port := range subset.Ports {
                if port.Name == "grpc" {
                    grpcAddr := fmt.Sprintf("%s:%d", addr.IP, port.Port)
                    addresses = append(addresses, resolver.Address{
                        Addr: grpcAddr,
                        Metadata: map[string]interface{}{
                            "pod_name": addr.TargetRef.Name,
                            "zone":     addr.NodeName,
                        },
                    })
                }
            }
        }
    }
    
    // 更新地址列表
    r.cc.UpdateState(resolver.State{Addresses: addresses})
}

func (r *K8sResolver) watch() {
    watchlist := cache.NewListWatchFromClient(
        r.client.CoreV1().RESTClient(),
        "endpoints",
        r.namespace,
        fields.OneTermEqualSelector("metadata.name", r.serviceName),
    )
    
    _, controller := cache.NewInformer(
        watchlist,
        &v1.Endpoints{},
        time.Second*10,
        cache.ResourceEventHandlerFuncs{
            AddFunc:    func(obj interface{}) { r.resolve() },
            UpdateFunc: func(oldObj, newObj interface{}) { r.resolve() },
            DeleteFunc: func(obj interface{}) { r.resolve() },
        },
    )
    
    controller.Run(r.ctx.Done())
}

// 客户端负载均衡器
type PodAwareBalancer struct {
    addresses   []resolver.Address
    healthMap   sync.Map // podIP -> bool
    responseTime sync.Map // podIP -> time.Duration
    current     int32
    mutex       sync.RWMutex
}

func (p *PodAwareBalancer) Pick() string {
    p.mutex.RLock()
    defer p.mutex.RUnlock()
    
    healthyAddresses := p.getHealthyAddresses()
    if len(healthyAddresses) == 0 {
        return ""
    }
    
    // 基于响应时间的智能选择
    var bestAddr string
    var bestTime time.Duration = time.Hour
    
    for _, addr := range healthyAddresses {
        if respTime, ok := p.responseTime.Load(addr.Addr); ok {
            if rt := respTime.(time.Duration); rt < bestTime {
                bestTime = rt
                bestAddr = addr.Addr
            }
        }
    }
    
    if bestAddr == "" {
        // 如果没有响应时间数据，使用轮询
        idx := atomic.AddInt32(&p.current, 1) % int32(len(healthyAddresses))
        bestAddr = healthyAddresses[idx].Addr
    }
    
    return bestAddr
}

func (p *PodAwareBalancer) getHealthyAddresses() []resolver.Address {
    var healthy []resolver.Address
    for _, addr := range p.addresses {
        if isHealthy, ok := p.healthMap.Load(addr.Addr); !ok || isHealthy.(bool) {
            healthy = append(healthy, addr)
        }
    }
    return healthy
}

// 健康检查实现
func (p *PodAwareBalancer) startHealthCheck() {
    ticker := time.NewTicker(10 * time.Second)
    go func() {
        for range ticker.C {
            for _, addr := range p.addresses {
                go p.checkPodHealth(addr.Addr)
            }
        }
    }()
}

func (p *PodAwareBalancer) checkPodHealth(address string) {
    start := time.Now()
    
    conn, err := grpc.Dial(address, 
        grpc.WithInsecure(),
        grpc.WithTimeout(3*time.Second),
    )
    if err != nil {
        p.healthMap.Store(address, false)
        return
    }
    defer conn.Close()
    
    client := grpc_health_v1.NewHealthClient(conn)
    _, err = client.Check(context.Background(), &grpc_health_v1.HealthCheckRequest{})
    
    duration := time.Since(start)
    if err != nil {
        p.healthMap.Store(address, false)
    } else {
        p.healthMap.Store(address, true)
        p.responseTime.Store(address, duration)
    }
}

订单服务使用示例：

func NewInventoryClient() (*InventoryClient, error) {
    // 注册自定义解析器
    resolver.Register(&K8sResolverBuilder{})
    
    conn, err := grpc.Dial(
        "k8s://inventory-service-headless.default.svc.cluster.local",
        grpc.WithInsecure(),
        grpc.WithBalancerName("pod_aware_balancer"),
    )
    if err != nil {
        return nil, err
    }
    
    return &InventoryClient{
        conn:   conn,
        client: inventory_pb.NewInventoryServiceClient(conn),
    }, nil
}

优势：

直连性能：客户端直接连接 Pod，无额外跳跃
智能感知：可以感知 Pod 健康状态和响应时间
灵活定制：可以实现复杂的负载均衡算法
故障快速切换：客户端直接检测 Pod 状态

适用场景：

对性能要求极高的应用
需要自定义负载均衡策略
长连接场景

方案三：ETCD 服务发现 + gRPC 负载均衡

场景应用：跨 Kubernetes 集群，或需要更灵活服务发现的场景

ETCD 作为分布式键值存储，可以实现跨集群的服务发现和配置管理。

ETCD 服务注册实现：

// ETCD 服务注册器
type ETCDRegistry struct {
    client    *clientv3.Client
    leaseID   clientv3.LeaseID
    keepAlive <-chan *clientv3.LeaseKeepAliveResponse
    key       string
    value     string
}

func NewETCDRegistry(endpoints []string, serviceName, instanceAddr string) (*ETCDRegistry, error) {
    client, err := clientv3.New(clientv3.Config{
        Endpoints:   endpoints,
        DialTimeout: 5 * time.Second,
    })
    if err != nil {
        return nil, err
    }
    
    // 创建租约
    lease, err := client.Grant(context.Background(), 30) // 30秒TTL
    if err != nil {
        return nil, err
    }
    
    // 服务实例信息
    instanceInfo := ServiceInstance{
        ID:       fmt.Sprintf("%s-%s", serviceName, instanceAddr),
        Name:     serviceName,
        Address:  instanceAddr,
        Port:     8080,
        Metadata: map[string]string{
            "version":     "v1.0",
            "zone":        os.Getenv("ZONE"),
            "weight":      "100",
            "protocol":    "grpc",
            "register_time": time.Now().Format(time.RFC3339),
        },
    }
    
    value, _ := json.Marshal(instanceInfo)
    key := fmt.Sprintf("/services/%s/%s", serviceName, instanceInfo.ID)
    
    registry := &ETCDRegistry{
        client: client,
        leaseID: lease.ID,
        key:    key,
        value:  string(value),
    }
    
    return registry, nil
}

func (r *ETCDRegistry) Register() error {
    // 注册服务
    _, err := r.client.Put(context.Background(), r.key, r.value, clientv3.WithLease(r.leaseID))
    if err != nil {
        return err
    }
    
    // 启动心跳
    r.keepAlive, err = r.client.KeepAlive(context.Background(), r.leaseID)
    if err != nil {
        return err
    }
    
    go r.watchKeepAlive()
    return nil
}

func (r *ETCDRegistry) watchKeepAlive() {
    for resp := range r.keepAlive {
        if resp == nil {
            log.Println("ETCD 心跳失败，尝试重新注册")
            r.reRegister()
            break
        }
        log.Printf("ETCD 心跳成功，TTL: %d", resp.TTL)
    }
}

func (r *ETCDRegistry) reRegister() {
    // 重新创建租约并注册
    lease, err := r.client.Grant(context.Background(), 30)
    if err != nil {
        log.Printf("重新创建租约失败: %v", err)
        return
    }
    
    r.leaseID = lease.ID
    if err := r.Register(); err != nil {
        log.Printf("重新注册失败: %v", err)
    }
}

func (r *ETCDRegistry) Deregister() error {
    // 撤销租约，自动删除服务信息
    _, err := r.client.Revoke(context.Background(), r.leaseID)
    return err
}

type ServiceInstance struct {
    ID       string            `json:"id"`
    Name     string            `json:"name"`
    Address  string            `json:"address"`
    Port     int               `json:"port"`
    Metadata map[string]string `json:"metadata"`
}

ETCD 服务发现实现：

// ETCD 服务发现器
type ETCDDiscovery struct {
    client      *clientv3.Client
    serviceName string
    instances   sync.Map // instanceID -> ServiceInstance
    balancer    LoadBalancer
    watchCtx    context.Context
    watchCancel context.CancelFunc
}

func NewETCDDiscovery(endpoints []string, serviceName string) (*ETCDDiscovery, error) {
    client, err := clientv3.New(clientv3.Config{
        Endpoints:   endpoints,
        DialTimeout: 5 * time.Second,
    })
    if err != nil {
        return nil, err
    }
    
    ctx, cancel := context.WithCancel(context.Background())
    
    discovery := &ETCDDiscovery{
        client:      client,
        serviceName: serviceName,
        balancer:    NewConsistentHashBalancer(),
        watchCtx:    ctx,
        watchCancel: cancel,
    }
    
    // 初始化加载服务实例
    if err := discovery.loadInstances(); err != nil {
        return nil, err
    }
    
    // 开始监听变化
    go discovery.watchChanges()
    
    return discovery, nil
}

func (d *ETCDDiscovery) loadInstances() error {
    prefix := fmt.Sprintf("/services/%s/", d.serviceName)
    resp, err := d.client.Get(context.Background(), prefix, clientv3.WithPrefix())
    if err != nil {
        return err
    }
    
    var instances []ServiceInstance
    for _, kv := range resp.Kvs {
        var instance ServiceInstance
        if err := json.Unmarshal(kv.Value, &instance); err != nil {
            log.Printf("解析服务实例失败: %v", err)
            continue
        }
        
        d.instances.Store(instance.ID, instance)
        instances = append(instances, instance)
    }
    
    d.balancer.UpdateInstances(instances)
    log.Printf("加载 %s 服务实例 %d 个", d.serviceName, len(instances))
    return nil
}

func (d *ETCDDiscovery) watchChanges() {
    prefix := fmt.Sprintf("/services/%s/", d.serviceName)
    watchChan := d.client.Watch(d.watchCtx, prefix, clientv3.WithPrefix())
    
    for watchResp := range watchChan {
        for _, event := range watchResp.Events {
            switch event.Type {
            case clientv3.EventTypePut:
                var instance ServiceInstance
                if err := json.Unmarshal(event.Kv.Value, &instance); err != nil {
                    log.Printf("解析新增服务实例失败: %v", err)
                    continue
                }
                
                d.instances.Store(instance.ID, instance)
                d.updateBalancer()
                log.Printf("新增服务实例: %s", instance.ID)
                
            case clientv3.EventTypeDelete:
                // 从key中提取instanceID
                key := string(event.Kv.Key)
                instanceID := key[strings.LastIndex(key, "/")+1:]
                
                d.instances.Delete(instanceID)
                d.updateBalancer()
                log.Printf("删除服务实例: %s", instanceID)
            }
        }
    }
}

func (d *ETCDDiscovery) updateBalancer() {
    var instances []ServiceInstance
    d.instances.Range(func(key, value interface{}) bool {
        instances = append(instances, value.(ServiceInstance))
        return true
    })
    
    d.balancer.UpdateInstances(instances)
}

func (d *ETCDDiscovery) GetInstance(key string) (*ServiceInstance, error) {
    instanceID := d.balancer.Select(key)
    if instanceID == "" {
        return nil, errors.New("没有可用的服务实例")
    }
    
    if instance, ok := d.instances.Load(instanceID); ok {
        inst := instance.(ServiceInstance)
        return &inst, nil
    }
    
    return nil, errors.New("服务实例不存在")
}

一致性哈希负载均衡器：

// 一致性哈希负载均衡器
type ConsistentHashBalancer struct {
    ring       map[uint32]string // hash -> instanceID
    sortedKeys []uint32
    instances  map[string]ServiceInstance
    mutex      sync.RWMutex
    replicas   int // 虚拟节点数量
}

func NewConsistentHashBalancer() *ConsistentHashBalancer {
    return &ConsistentHashBalancer{
        ring:      make(map[uint32]string),
        instances: make(map[string]ServiceInstance),
        replicas:  100, // 每个实例创建100个虚拟节点
    }
}

func (c *ConsistentHashBalancer) UpdateInstances(instances []ServiceInstance) {
    c.mutex.Lock()
    defer c.mutex.Unlock()
    
    // 清空现有环
    c.ring = make(map[uint32]string)
    c.sortedKeys = []uint32{}
    c.instances = make(map[string]ServiceInstance)
    
    // 添加所有实例到哈希环
    for _, instance := range instances {
        c.instances[instance.ID] = instance
        c.addToRing(instance.ID)
    }
    
    // 排序哈希值
    sort.Slice(c.sortedKeys, func(i, j int) bool {
        return c.sortedKeys[i] < c.sortedKeys[j]
    })
}

func (c *ConsistentHashBalancer) addToRing(instanceID string) {
    for i := 0; i < c.replicas; i++ {
        key := fmt.Sprintf("%s-%d", instanceID, i)
        hash := c.hash(key)
        c.ring[hash] = instanceID
        c.sortedKeys = append(c.sortedKeys, hash)
    }
}

func (c *ConsistentHashBalancer) Select(key string) string {
    c.mutex.RLock()
    defer c.mutex.RUnlock()
    
    if len(c.sortedKeys) == 0 {
        return ""
    }
    
    hash := c.hash(key)
    
    // 找到第一个大于等于该哈希值的节点
    idx := sort.Search(len(c.sortedKeys), func(i int) bool {
        return c.sortedKeys[i] >= hash
    })
    
    // 如果没找到，选择第一个节点（环形）
    if idx == len(c.sortedKeys) {
        idx = 0
    }
    
    return c.ring[c.sortedKeys[idx]]
}

func (c *ConsistentHashBalancer) hash(key string) uint32 {
    h := fnv.New32a()
    h.Write([]byte(key))
    return h.Sum32()
}

订单服务使用 ETCD 发现：

type OrderService struct {
    inventoryDiscovery *ETCDDiscovery
    paymentDiscovery   *ETCDDiscovery
    userDiscovery      *ETCDDiscovery
    clientPool         *GRPCClientPool
}

func NewOrderService() (*OrderService, error) {
    etcdEndpoints := []string{"etcd-1:2379", "etcd-2:2379", "etcd-3:2379"}
    
    inventoryDiscovery, err := NewETCDDiscovery(etcdEndpoints, "inventory-service")
    if err != nil {
        return nil, err
    }
    
    paymentDiscovery, err := NewETCDDiscovery(etcdEndpoints, "payment-service")
    if err != nil {
        return nil, err
    }
    
    return &OrderService{
        inventoryDiscovery: inventoryDiscovery,
        paymentDiscovery:   paymentDiscovery,
        clientPool:         NewGRPCClientPool(),
    }, nil
}

func (s *OrderService) CreateOrder(ctx context.Context, req *pb.CreateOrderRequest) (*pb.CreateOrderResponse, error) {
    // 使用用户ID作为一致性哈希的key，确保同一用户的请求打到同一个实例
    userKey := fmt.Sprintf("user-%s", req.UserId)
    
    // 获取库存服务实例
    inventoryInstance, err := s.inventoryDiscovery.GetInstance(req.ProductId)
    if err != nil {
        return nil, fmt.Errorf("获取库存服务实例失败: %v", err)
    }
    
    // 获取支付服务实例
    paymentInstance, err := s.paymentDiscovery.GetInstance(userKey)
    if err != nil {
        return nil, fmt.Errorf("获取支付服务实例失败: %v", err)
    }
    
    // 并发调用多个服务
    var wg sync.WaitGroup
    var inventoryResp *inventory_pb.CheckInventoryResponse
    var paymentResp *payment_pb.PreparePaymentResponse
    var inventoryErr, paymentErr error
    
    // 检查库存
    wg.Add(1)
    go func() {
        defer wg.Done()
        client, err := s.clientPool.GetInventoryClient(inventoryInstance)
        if err != nil {
            inventoryErr = err
            return
        }
        
        inventoryResp, inventoryErr = client.CheckInventory(ctx, &inventory_pb.CheckInventoryRequest{
            ProductId: req.ProductId,
            Quantity:  req.Quantity,
        })
    }()
    
    // 准备支付
    wg.Add(1)
    go func() {
        defer wg.Done()
        client, err := s.clientPool.GetPaymentClient(paymentInstance)
        if err != nil {
            paymentErr = err
            return
        }
        
        paymentResp, paymentErr = client.PreparePayment(ctx, &payment_pb.PreparePaymentRequest{
            UserId: req.UserId,
            Amount: req.Amount,
        })
    }()
    
    wg.Wait()
    
    if inventoryErr != nil {
        return nil, fmt.Errorf("库存检查失败: %v", inventoryErr)
    }
    if paymentErr != nil {
        return nil, fmt.Errorf("支付准备失败: %v", paymentErr)
    }
    
    return s.processOrderCreation(inventoryResp, paymentResp, req)
}

// gRPC 客户端连接池
type GRPCClientPool struct {
    inventoryClients sync.Map // address -> InventoryServiceClient
    paymentClients   sync.Map // address -> PaymentServiceClient
    connections      sync.Map // address -> *grpc.ClientConn
}

func (p *GRPCClientPool) GetInventoryClient(instance *ServiceInstance) (inventory_pb.InventoryServiceClient, error) {
    address := fmt.Sprintf("%s:%d", instance.Address, instance.Port)
    
    if client, ok := p.inventoryClients.Load(address); ok {
        return client.(inventory_pb.InventoryServiceClient), nil
    }
    
    conn, err := p.getConnection(address)
    if err != nil {
        return nil, err
    }
    
    client := inventory_pb.NewInventoryServiceClient(conn)
    p.inventoryClients.Store(address, client)
    return client, nil
}

func (p *GRPCClientPool) getConnection(address string) (*grpc.ClientConn, error) {
    if conn, ok := p.connections.Load(address); ok {
        return conn.(*grpc.ClientConn), nil
    }
    
    conn, err := grpc.Dial(address,
        grpc.WithInsecure(),
        grpc.WithKeepaliveParams(keepalive.ClientParameters{
            Time:                30 * time.Second,
            Timeout:             5 * time.Second,
            PermitWithoutStream: true,
        }),
        grpc.WithStatsHandler(&LatencyStatsHandler{}), // 统计延迟
    )
    if err != nil {
        return nil, err
    }
    
    p.connections.Store(address, conn)
    return conn, nil
}

ETCD 配置和部署：

# etcd-cluster.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: etcd-config
data:
  etcd.conf: |
    name: etcd-1
    data-dir: /var/lib/etcd
    listen-client-urls: http://0.0.0.0:2379
    advertise-client-urls: http://etcd-1:2379
    listen-peer-urls: http://0.0.0.0:2380
    initial-advertise-peer-urls: http://etcd-1:2380
    initial-cluster: etcd-1=http://etcd-1:2380,etcd-2=http://etcd-2:2380,etcd-3=http://etcd-3:2380
    initial-cluster-state: new
    auto-compaction-retention: 1
    quota-backend-bytes: 8589934592

---
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: etcd
spec:
  serviceName: etcd
  replicas: 3
  selector:
    matchLabels:
      app: etcd
  template:
    metadata:
      labels:
        app: etcd
    spec:
      containers:
      - name: etcd
        image: quay.io/coreos/etcd:v3.5.0
        command:
        - etcd
        - --config-file=/etc/etcd/etcd.conf
        ports:
        - containerPort: 2379
          name: client
        - containerPort: 2380
          name: peer
        volumeMounts:
        - name: etcd-config
          mountPath: /etc/etcd
        - name: etcd-data
          mountPath: /var/lib/etcd
      volumes:
      - name: etcd-config
        configMap:
          name: etcd-config
  volumeClaimTemplates:
  - metadata:
      name: etcd-data
    spec:
      accessModes: ["ReadWriteOnce"]
      resources:
        requests:
          storage: 10Gi

优势：

跨集群发现：支持多 Kubernetes 集群服务发现
强一致性：ETCD 提供强一致性保证
丰富元数据：可以存储复杂的服务元数据
监听机制：实时感知服务变化
一致性哈希：支持会话保持和数据分片

适用场景：

多集群环境
需要会话保持的应用
需要复杂服务元数据管理
对一致性要求高的场景

方案四：代理式负载均衡（Nginx/Envoy）

场景应用：需要统一入口和高级功能的企业级应用

通过专门的负载均衡代理来处理 gRPC 请求分发，支持丰富的负载均衡策略和流量管理功能。

Nginx gRPC 负载均衡配置：

# nginx-grpc-lb.conf
upstream inventory_backend {
    # 最少连接负载均衡
    least_conn;
    
    # 后端服务实例
    server inventory-service-1:8080 weight=3 max_fails=3 fail_timeout=30s;
    server inventory-service-2:8080 weight=2 max_fails=3 fail_timeout=30s;
    server inventory-service-3:8080 weight=1 max_fails=3 fail_timeout=30s;
    
    # 健康检查
    keepalive 32;
    keepalive_requests 1000;
    keepalive_timeout 60s;
}

upstream payment_backend {
    # IP 哈希，确保同一客户端请求到同一后端
    ip_hash;
    
    server payment-service-1:8080 weight=1;
    server payment-service-2:8080 weight=1;
    
    keepalive 16;
}

map $request_uri $backend_pool {
    ~*/inventory\.InventoryService/ inventory_backend;
    ~*/payment\.PaymentService/     payment_backend;
    default                         inventory_backend;
}

server {
    listen 9090 http2;
    server_name grpc-lb.example.com;
    
    # gRPC 相关配置
    grpc_read_timeout 300;
    grpc_send_timeout 300;
    client_body_timeout 300;
    client_header_timeout 300;
    
    # 限流配置
    limit_req_zone $binary_remote_addr zone=grpc_limit:10m rate=100r/s;
    
    location / {
        limit_req zone=grpc_limit burst=200 nodelay;
        
        # gRPC 代理
        grpc_pass grpc://$backend_pool;
        
        # 错误处理
        error_page 502 503 504 @grpc_error;
        
        # 自定义头部
        grpc_set_header X-Real-IP $remote_addr;
        grpc_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        grpc_set_header X-Request-ID $request_id;
        
        # 超时配置
        grpc_connect_timeout 5s;
        grpc_read_timeout 60s;
        grpc_send_timeout 60s;
    }
    
    location @grpc_error {
        add_header grpc-status 14;
        add_header grpc-message "Service Unavailable";
        return 503;
    }
    
    # 健康检查端点
    location /health {
        access_log off;
        return 200 "healthy\n";
        add_header Content-Type text/plain;
    }
    
    # 指标收集
    location /nginx_status {
        stub_status on;
        access_log off;
        allow 127.0.0.1;
        deny all;
    }
}

# 日志格式
log_format grpc_log '$remote_addr - $remote_user [$time_local] '
                    '"$request" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent" '
                    'rt=$request_time ut="$upstream_response_time" '
                    'cs=$upstream_cache_status '
                    'grpc_status=$upstream_grpc_status';

access_log /var/log/nginx/grpc_access.log grpc_log;
error_log /var/log/nginx/grpc_error.log warn;

Envoy gRPC 负载均衡配置：

# envoy-grpc-lb.yaml
static_resources:
  listeners:
  - address:
      socket_address:
        address: 0.0.0.0
        port_value: 9090
    filter_chains:
    - filters:
      - name: envoy.filters.network.http_connection_manager
        typed_config:
          "@type": type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager
          codec_type: AUTO
          stat_prefix: grpc_json
          
          # 路由配置
          route_config:
            name: local_route
            virtual_hosts:
            - name: grpc_services
              domains: ["*"]
              routes:
              # 库存服务路由
              - match:
                  prefix: "/inventory.InventoryService/"
                route:
                  cluster: inventory_cluster
                  timeout: 30s
                  retry_policy:
                    retry_on: "5xx,reset,connect-failure,refused-stream"
                    num_retries: 3
                    per_try_timeout: 10s
              
              # 支付服务路由  
              - match:
                  prefix: "/payment.PaymentService/"
                route:
                  cluster: payment_cluster
                  timeout: 60s
                  hash_policy:
                  - header:
                      header_name: "user-id"  # 基于用户ID哈希
              
              # 默认路由
              - match:
                  prefix: "/"
                route:
                  cluster: default_cluster
          
          # HTTP 过滤器
          http_filters:
          # 限流过滤器
          - name: envoy.filters.http.local_ratelimit
            typed_config:
              "@type": type.googleapis.com/udpa.type.v1.TypedStruct
              type_url: type.googleapis.com/envoy.extensions.filters.http.local_ratelimit.v3.LocalRateLimit
              value:
                stat_prefix: http_local_rate_limiter
                token_bucket:
                  max_tokens: 1000
                  tokens_per_fill: 100
                  fill_interval: 1s
                filter_enabled:
                  runtime_key: test_enabled
                  default_value:
                    numerator: 100
                    denominator: HUNDRED
                filter_enforced:
                  runtime_key: test_enforced
                  default_value:
                    numerator: 100
                    denominator: HUNDRED
          
          # gRPC Web 支持
          - name: envoy.filters.http.grpc_web
            typed_config:
              "@type": type.googleapis.com/envoy.extensions.filters.http.grpc_web.v3.GrpcWeb
          
          # 路由器
          - name: envoy.filters.http.router
            typed_config:
              "@type": type.googleapis.com/envoy.extensions.filters.http.router.v3.Router

  clusters:
  # 库存服务集群
  - name: inventory_cluster
    connect_timeout: 0.25s
    type: STRICT_DNS
    http2_protocol_options: {}
    lb_policy: LEAST_REQUEST
    
    # 健康检查
    health_checks:
    - timeout: 5s
      interval: 10s
      unhealthy_threshold: 3
      healthy_threshold: 2
      grpc_health_check:
        service_name: "inventory.InventoryService"
    
    # 熔断器
    circuit_breakers:
      thresholds:
      - priority: DEFAULT
        max_connections: 100
        max_pending_requests: 50
        max_requests: 200
        max_retries: 3
    
    # 异常检测
    outlier_detection:
      consecutive_5xx: 3
      interval: 30s
      base_ejection_time: 30s
      max_ejection_percent: 50
    
    load_assignment:
      cluster_name: inventory_cluster
      endpoints:
      - lb_endpoints:
        - endpoint:
            address:
              socket_address:
                address: inventory-service-1
                port_value: 8080
          load_balancing_weight: 300  # 权重3
        - endpoint:
            address:
              socket_address:
                address: inventory-service-2
                port_value: 8080
          load_balancing_weight: 200  # 权重2
        - endpoint:
            address:
              socket_address:
                address: inventory-service-3
                port_value: 8080
          load_balancing_weight: 100  # 权重1

  # 支付服务集群
  - name: payment_cluster
    connect_timeout: 0.25s
    type: STRICT_DNS
    http2_protocol_options: {}
    lb_policy: RING_HASH  # 一致性哈希
    
    ring_hash_lb_config:
      minimum_ring_size: 1024
      maximum_ring_size: 8192
    
    health_checks:
    - timeout: 5s
      interval: 10s
      grpc_health_check:
        service_name: "payment.PaymentService"
    
    load_assignment:
      cluster_name: payment_cluster
      endpoints:
      - lb_endpoints:
        - endpoint:
            address:
              socket_address:
                address: payment-service-1
                port_value: 8080
        - endpoint:
            address:
              socket_address:
                address: payment-service-2
                port_value: 8080

# 管理接口
admin:
  access_log_path: "/dev/null"
  address:
    socket_address:
      address: 0.0.0.0
      port_value: 8001

Kubernetes 中部署代理负载均衡器：

# nginx-grpc-lb-deployment.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: nginx-grpc-config
data:
  nginx.conf: |
    # 上面的 nginx 配置内容
    
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-grpc-lb
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx-grpc-lb
  template:
    metadata:
      labels:
        app: nginx-grpc-lb
    spec:
      containers:
      - name: nginx
        image: nginx:1.21-alpine
        ports:
        - containerPort: 9090
          name: grpc
        - containerPort: 8080
          name: http
        volumeMounts:
        - name: nginx-config
          mountPath: /etc/nginx/nginx.conf
          subPath: nginx.conf
        resources:
          requests:
            cpu: 100m
            memory: 128Mi
          limits:
            cpu: 500m
            memory: 512Mi
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 30
          periodSeconds: 10
        readinessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 5
          periodSeconds: 5
      volumes:
      - name: nginx-config
        configMap:
          name: nginx-grpc-config

---
apiVersion: v1
kind: Service
metadata:
  name: nginx-grpc-lb
spec:
  selector:
    app: nginx-grpc-lb
  ports:
  - name: grpc
    port: 9090
    targetPort: 9090
    protocol: TCP
  - name: http
    port: 8080
    targetPort: 8080
    protocol: TCP
  type: LoadBalancer  # 或者使用 ClusterIP + Ingress

客户端调用代理：

// 通过代理调用服务
type ProxyGRPCClient struct {
    conn          *grpc.ClientConn
    proxyAddress  string
    timeout       time.Duration
    retryPolicy   *RetryPolicy
}

func NewProxyGRPCClient(proxyAddress string) (*ProxyGRPCClient, error) {
    conn, err := grpc.Dial(proxyAddress,
        grpc.WithInsecure(),
        grpc.WithKeepaliveParams(keepalive.ClientParameters{
            Time:                30 * time.Second,
            Timeout:             5 * time.Second,
            PermitWithoutStream: true,
        }),
        grpc.WithUnaryInterceptor(retryInterceptor),
        grpc.WithStatsHandler(&PrometheusStatsHandler{}),
    )
    if err != nil {
        return nil, err
    }
    
    return &ProxyGRPCClient{
        conn:         conn,
        proxyAddress: proxyAddress,
        timeout:      30 * time.Second,
    }, nil
}

func (p *ProxyGRPCClient) CallInventoryService(ctx context.Context, req *inventory_pb.CheckInventoryRequest) (*inventory_pb.CheckInventoryResponse, error) {
    // 设置超时
    ctx, cancel := context.WithTimeout(ctx, p.timeout)
    defer cancel()
    
    // 添加追踪ID
    ctx = metadata.AppendToOutgoingContext(ctx, 
        "request-id", generateRequestID(),
        "user-id", getUserIDFromContext(ctx),
    )
    
    client := inventory_pb.NewInventoryServiceClient(p.conn)
    return client.CheckInventory(ctx, req)
}

// 重试拦截器
func retryInterceptor(ctx context.Context, method string, req, reply interface{}, cc *grpc.ClientConn, invoker grpc.UnaryInvoker, opts ...grpc.CallOption) error {
    var lastErr error
    maxRetries := 3
    backoff := time.Millisecond * 100
    
    for i := 0; i <= maxRetries; i++ {
        if i > 0 {
            select {
            case <-time.After(backoff):
                backoff *= 2 // 指数退避
            case <-ctx.Done():
                return ctx.Err()
            }
        }
        
        lastErr = invoker(ctx, method, req, reply, cc, opts...)
        if lastErr == nil {
            return nil
        }
        
        // 检查是否是可重试的错误
        if !isRetryableError(lastErr) {
            break
        }
    }
    
    return lastErr
}

func isRetryableError(err error) bool {
    if err == nil {
        return false
    }
    
    status, ok := status.FromError(err)
    if !ok {
        return false
    }
    
    // 可重试的 gRPC 状态码
    switch status.Code() {
    case codes.Unavailable, codes.DeadlineExceeded, codes.Internal:
        return true
    default:
        return false
    }
}

代理负载均衡优势：

集中管理：统一的路由规则和策略配置
功能丰富：支持限流、熔断、重试、监控等高级功能
协议支持：可以处理 HTTP/1.1、HTTP/2、gRPC Web 等多种协议
运维简单：客户端只需连接代理，无需关心后端拓扑
安全增强：可以集成认证、授权、TLS 终止等安全功能

适用场景：

大型企业级应用
需要统一的流量管理策略
跨协议支持需求
严格的安全和合规要求
需要详细的监控和日志

方案五：Service Mesh（Istio/Linkerd）

场景应用：云原生应用，需要零侵入的服务治理

Service Mesh 通过 Sidecar 代理模式，为每个服务实例注入代理，实现透明的负载均衡和流量管理。

Istio 流量管理配置：

# destination-rule.yaml - 目标规则配置
apiVersion: networking.istio.io/v1alpha3
kind: DestinationRule
metadata:
  name: inventory-service-dr
  namespace: default
spec:
  host: inventory-service
  trafficPolicy:
    # 负载均衡策略
    loadBalancer:
      simple: LEAST_CONN  # 最少连接
      # 其他选项: ROUND_ROBIN, RANDOM, PASSTHROUGH
    
    # 连接池配置
    connectionPool:
      tcp:
        maxConnections: 100
        connectTimeout: 30s
        keepAlive:
          time: 7200s
          interval: 75s
      http:
        http1MaxPendingRequests: 50
        http2MaxRequests: 100
        maxRequestsPerConnection: 10
        maxRetries: 3
        consecutiveGatewayErrors: 3
        interval: 30s
        baseEjectionTime: 30s
        maxEjectionPercent: 50
    
    # 熔断器配置
    outlierDetection:
      consecutive5xxErrors: 3
      consecutiveGatewayErrors: 3
      interval: 30s
      baseEjectionTime: 30s
      maxEjectionPercent: 50
      minHealthPercent: 30
  
  # 子集配置（用于金丝雀发布）
  subsets:
  - name: v1
    labels:
      version: v1
    trafficPolicy:
      loadBalancer:
        simple: ROUND_ROBIN
  - name: v2
    labels:
      version: v2
    trafficPolicy:
      loadBalancer:
        simple: LEAST_CONN
  - name: canary
    labels:
      version: canary
    trafficPolicy:
      loadBalancer:
        simple: RANDOM

---
# virtual-service.yaml - 虚拟服务配置
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: inventory-service-vs
  namespace: default
spec:
  hosts:
  - inventory-service
  http:
  # 金丝雀发布规则
  - match:
    - headers:
        canary:
          exact: "true"
    route:
    - destination:
        host: inventory-service
        subset: canary
      weight: 100
    fault:
      delay:
        percentage:
          value: 1.0
        fixedDelay: 100ms  # 故障注入测试
  
  # A/B 测试规则
  - match:
    - headers:
        user-type:
          exact: "premium"
    route:
    - destination:
        host: inventory-service
        subset: v2
      weight: 100
    timeout: 60s
    retries:
      attempts: 3
      perTryTimeout: 20s
      retryOn: gateway-error,connect-failure,refused-stream
  
  # 默认流量分配（蓝绿部署）
  - route:
    - destination:
        host: inventory-service
        subset: v1
      weight: 90
    - destination:
        host: inventory-service
        subset: v2
      weight: 10
    timeout: 30s

---
# service-entry.yaml - 外部服务配置
apiVersion: networking.istio.io/v1alpha3
kind: ServiceEntry
metadata:
  name: external-payment-gateway
spec:
  hosts:
  - payment-gateway.external.com
  ports:
  - number: 443
    name: https
    protocol: HTTPS
  - number: 80
    name: http
    protocol: HTTP
  location: MESH_EXTERNAL
  resolution: DNS

---
# 支付服务的目标规则
apiVersion: networking.istio.io/v1alpha3
kind: DestinationRule
metadata:
  name: payment-service-dr
spec:
  host: payment-service
  trafficPolicy:
    loadBalancer:
      consistentHash:
        httpHeaderName: "user-id"  # 基于用户ID的一致性哈希
    connectionPool:
      tcp:
        maxConnections: 50
      http:
        http1MaxPendingRequests: 25
        maxRequestsPerConnection: 5
  subsets:
  - name: stable
    labels:
      version: stable
  - name: beta
    labels:
      version: beta

高级流量管理策略：

# 灰度发布配置
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: payment-service-canary
spec:
  hosts:
  - payment-service
  http:
  # 内部员工流量到新版本
  - match:
    - headers:
        employee:
          exact: "true"
    route:
    - destination:
        host: payment-service
        subset: beta
      weight: 100
  
  # 特定地区用户的灰度
  - match:
    - headers:
        region:
          exact: "us-west"
    route:
    - destination:
        host: payment-service
        subset: stable
      weight: 95
    - destination:
        host: payment-service
        subset: beta
      weight: 5
  
  # 默认流量分配
  - route:
    - destination:
        host: payment-service
        subset: stable
      weight: 98
    - destination:
        host: payment-service
        subset: beta
      weight: 2

---
# 流量镜像配置（用于测试）
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: inventory-service-mirror
spec:
  hosts:
  - inventory-service
  http:
  - match:
    - uri:
        prefix: "/inventory.InventoryService/CheckInventory"
    route:
    - destination:
        host: inventory-service
        subset: v1
      weight: 100
    mirror:
      host: inventory-service
      subset: v2
    mirrorPercentage:
      value: 10.0  # 10% 流量镜像到新版本

---
# 安全策略配置
apiVersion: security.istio.io/v1beta1
kind: PeerAuthentication
metadata:
  name: default
  namespace: default
spec:
  mtls:
    mode: STRICT  # 强制 mTLS

---
apiVersion: security.istio.io/v1beta1
kind: AuthorizationPolicy
metadata:
  name: inventory-service-authz
  namespace: default
spec:
  selector:
    matchLabels:
      app: inventory-service
  rules:
  - from:
    - source:
        principals: ["cluster.local/ns/default/sa/order-service"]
    to:
    - operation:
        methods: ["POST"]
        paths: ["/inventory.InventoryService/CheckInventory"]
  - from:
    - source:
        principals: ["cluster.local/ns/default/sa/warehouse-service"]
    to:
    - operation:
        methods: ["POST", "PUT"]

服务代码无需修改：

// 订单服务代码完全无需修改，Istio 透明处理所有流量管理
func (s *OrderService) CreateOrder(ctx context.Context, req *pb.CreateOrderRequest) (*pb.CreateOrderResponse, error) {
    // 添加 Istio 识别的头部信息
    ctx = metadata.AppendToOutgoingContext(ctx,
        "user-id", req.UserId,
        "request-id", generateRequestID(),
        "user-type", getUserType(req.UserId),
        "region", getRegionFromContext(ctx),
    )
    
    // 直接调用服务名，Istio 处理所有负载均衡、安全、可观测性
    inventoryConn, err := grpc.Dial("inventory-service:8080", 
        grpc.WithInsecure(),  // Istio 自动处理 mTLS
    )
    if err != nil {
        return nil, err
    }
    defer inventoryConn.Close()
    
    paymentConn, err := grpc.Dial("payment-service:8080", grpc.WithInsecure())
    if err != nil {
        return nil, err
    }
    defer paymentConn.Close()
    
    inventoryClient := inventory_pb.NewInventoryServiceClient(inventoryConn)
    paymentClient := payment_pb.NewPaymentServiceClient(paymentConn)
    
    // 并发调用，Istio 自动负载均衡、重试、熔断
    var wg sync.WaitGroup
    var inventoryResp *inventory_pb.CheckInventoryResponse
    var paymentResp *payment_pb.PreparePaymentResponse
    var inventoryErr, paymentErr error
    
    wg.Add(2)
    
    // 检查库存
    go func() {
        defer wg.Done()
        inventoryResp, inventoryErr = inventoryClient.CheckInventory(ctx, &inventory_pb.CheckInventoryRequest{
            ProductId: req.ProductId,
            Quantity:  req.Quantity,
        })
    }()
    
    // 准备支付
    go func() {
        defer wg.Done()
        paymentResp, paymentErr = paymentClient.PreparePayment(ctx, &payment_pb.PreparePaymentRequest{
            UserId: req.UserId,
            Amount: calculateAmount(req),
        })
    }()
    
    wg.Wait()
    
    if inventoryErr != nil {
        return nil, fmt.Errorf("库存检查失败: %v", inventoryErr)
    }
    if paymentErr != nil {
        return nil, fmt.Errorf("支付准备失败: %v", paymentErr)
    }
    
    // 处理订单创建逻辑
    return s.processOrderCreation(inventoryResp, paymentResp, req)
}

// Istio 自动注入的指标收集
func getUserType(userID string) string {
    // 根据用户ID判断用户类型，用于流量路由
    if isPremiumUser(userID) {
        return "premium"
    }
    return "regular"
}

func getRegionFromContext(ctx context.Context) string {
    // 从上下文获取地区信息
    if md, ok := metadata.FromIncomingContext(ctx); ok {
        if regions := md.Get("x-region"); len(regions) > 0 {
            return regions[0]
        }
    }
    return "default"
}

Istio 可观测性配置：

# telemetry.yaml - 遥测配置
apiVersion: telemetry.istio.io/v1alpha1
kind: Telemetry
metadata:
  name: grpc-metrics
  namespace: default
spec:
  metrics:
  - providers:
    - name: prometheus
  - overrides:
    - match:
        metric: ALL_METRICS
      tagOverrides:
        destination_service_name:
          operation: UPSERT
          value: "%{DESTINATION_SERVICE_NAME}"
        source_service_name:
          operation: UPSERT
          value: "%{SOURCE_SERVICE_NAME}"

---
# 分布式追踪配置
apiVersion: v1
kind: ConfigMap
metadata:
  name: istio
  namespace: istio-system
data:
  mesh: |
    defaultConfig:
      tracing:
        sampling: 100.0  # 100% 采样（生产环境建议设置为1-10%）
        jaeger:
          address: jaeger-collector.istio-system:14268
    extensionProviders:
    - name: jaeger
      envoyOtelAls:
        service: jaeger-collector.istio-system
        port: 14268

---
# Gateway 配置（对外暴露）
apiVersion: networking.istio.io/v1alpha3
kind: Gateway
metadata:
  name: grpc-gateway
spec:
  selector:
    istio: ingressgateway
  servers:
  - port:
      number: 443
      name: grpc-tls
      protocol: GRPC
    tls:
      mode: SIMPLE
      credentialName: grpc-tls-secret
    hosts:
    - grpc-api.example.com
  - port:
      number: 80
      name: grpc
      protocol: GRPC
    hosts:
    - grpc-api.example.com

---
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: grpc-gateway-vs
spec:
  hosts:
  - grpc-api.example.com
  gateways:
  - grpc-gateway
  http:
  - match:
    - uri:
        prefix: "/inventory.InventoryService/"
    route:
    - destination:
        host: inventory-service
        port:
          number: 8080
  - match:
    - uri:
        prefix: "/payment.PaymentService/"
    route:
    - destination:
        host: payment-service
        port:
          number: 8080

Service Mesh 优势：

零侵入：应用代码无需修改
统一治理：通过配置文件管理所有流量策略
安全增强：自动 mTLS、认证授权
可观测性：自动收集指标、日志、链路追踪
高级功能：灰度发布、蓝绿部署、故障注入、流量镜像

适用场景：

云原生 Kubernetes 环境
大型微服务集群（100+ 服务）
多语言技术栈
需要复杂的流量管理策略
严格的安全和合规要求

方案六：混合负载均衡策略

场景应用：复杂业务场景，需要组合多种负载均衡策略

在实际生产环境中，往往需要结合多种负载均衡方案来满足不同的业务需求。

多层负载均衡配置：

// 混合负载均衡管理器
type HybridLoadBalancerManager struct {
    // 不同场景使用不同的负载均衡策略
    clientLBClients  map[string]*ClientLBClient      // 高性能场景
    meshClients      map[string]*ServiceMeshClient   // 一般业务场景
    etcdClients      map[string]*ETCDClient          // 跨集群场景
    proxyClients     map[string]*ProxyClient         // 统一代理场景
    
    config           *LoadBalancingConfig
    metrics          *HybridMetrics
}

type LoadBalancingConfig struct {
    Services map[string]ServiceConfig `yaml:"services"`
}

type ServiceConfig struct {
    Name     string `yaml:"name"`
    Strategy string `yaml:"strategy"` // client_lb, service_mesh, etcd, proxy
    Config   map[string]interface{} `yaml:"config"`
}

func NewHybridLoadBalancerManager(config *LoadBalancingConfig) (*HybridLoadBalancerManager, error) {
    manager := &HybridLoadBalancerManager{
        clientLBClients: make(map[string]*ClientLBClient),
        meshClients:     make(map[string]*ServiceMeshClient),
        etcdClients:     make(map[string]*ETCDClient),
        proxyClients:    make(map[string]*ProxyClient),
        config:          config,
        metrics:         NewHybridMetrics(),
    }
    
    // 根据配置初始化不同的客户端
    for serviceName, serviceConfig := range config.Services {
        switch serviceConfig.Strategy {
        case "client_lb":
            client, err := NewClientLBClient(serviceName, serviceConfig.Config)
            if err != nil {
                return nil, err
            }
            manager.clientLBClients[serviceName] = client
            
        case "service_mesh":
            client, err := NewServiceMeshClient(serviceName, serviceConfig.Config)
            if err != nil {
                return nil, err
            }
            manager.meshClients[serviceName] = client
            
        case "etcd":
            client, err := NewETCDClient(serviceName, serviceConfig.Config)
            if err != nil {
                return nil, err
            }
            manager.etcdClients[serviceName] = client
            
        case "proxy":
            client, err := NewProxyClient(serviceName, serviceConfig.Config)
            if err != nil {
                return nil, err
            }
            manager.proxyClients[serviceName] = client
        }
    }
    
    return manager, nil
}

// 智能路由选择
func (h *HybridLoadBalancerManager) GetClient(serviceName string) (interface{}, error) {
    serviceConfig, exists := h.config.Services[serviceName]
    if !exists {
        return nil, fmt.Errorf("服务 %s 未配置", serviceName)
    }
    
    start := time.Now()
    defer func() {
        h.metrics.RecordLatency(serviceName, serviceConfig.Strategy, time.Since(start))
    }()
    
    switch serviceConfig.Strategy {
    case "client_lb":
        if client, ok := h.clientLBClients[serviceName]; ok {
            return client, nil
        }
    case "service_mesh":
        if client, ok := h.meshClients[serviceName]; ok {
            return client, nil
        }
    case "etcd":
        if client, ok := h.etcdClients[serviceName]; ok {
            return client, nil
        }
    case "proxy":
        if client, ok := h.proxyClients[serviceName]; ok {
            return client, nil
        }
    }
    
    return nil, fmt.Errorf("服务 %s 的客户端未初始化", serviceName)
}

// 订单服务使用混合负载均衡
type OrderService struct {
    lbManager *HybridLoadBalancerManager
}

func (s *OrderService) CreateOrder(ctx context.Context, req *pb.CreateOrderRequest) (*pb.CreateOrderResponse, error) {
    // 高频支付调用使用客户端负载均衡（最低延迟）
    paymentClient, err := s.lbManager.GetClient("payment-service")
    if err != nil {
        return nil, err
    }
    
    // 库存查询使用 Service Mesh（功能丰富）
    inventoryClient, err := s.lbManager.GetClient("inventory-service")
    if err != nil {
        return nil, err
    }
    
    // 用户服务使用代理负载均衡（统一管理）
    userClient, err := s.lbManager.GetClient("user-service")
    if err != nil {
        return nil, err
    }
    
    // 外部风控服务使用 ETCD 发现（跨集群）
    riskClient, err := s.lbManager.GetClient("risk-service")
    if err != nil {
        return nil, err
    }
    
    // 并发调用多个服务
    return s.executeOrderCreation(ctx, req, paymentClient, inventoryClient, userClient, riskClient)
}

func (s *OrderService) executeOrderCreation(
    ctx context.Context,
    req *pb.CreateOrderRequest,
    paymentClient, inventoryClient, userClient, riskClient interface{},
) (*pb.CreateOrderResponse, error) {
    var wg sync.WaitGroup
    var mu sync.Mutex
    results := make(map[string]interface{})
    errors := make(map[string]error)
    
    // 用户验证
    wg.Add(1)
    go func() {
        defer wg.Done()
        client := userClient.(*ServiceMeshClient)
        resp, err := client.GetUser(ctx, &user_pb.GetUserRequest{UserId: req.UserId})
        
        mu.Lock()
        if err != nil {
            errors["user"] = err
        } else {
            results["user"] = resp
        }
        mu.Unlock()
    }()
    
    // 库存检查
    wg.Add(1)
    go func() {
        defer wg.Done()
        client := inventoryClient.(*ServiceMeshClient)
        resp, err := client.CheckInventory(ctx, &inventory_pb.CheckInventoryRequest{
            ProductId: req.ProductId,
            Quantity:  req.Quantity,
        })
        
        mu.Lock()
        if err != nil {
            errors["inventory"] = err
        } else {
            results["inventory"] = resp
        }
        mu.Unlock()
    }()
    
    // 风控检查
    wg.Add(1)
    go func() {
        defer wg.Done()
        client := riskClient.(*ETCDClient)
        resp, err := client.CheckRisk(ctx, &risk_pb.CheckRiskRequest{
            UserId:    req.UserId,
            ProductId: req.ProductId,
            Amount:    req.Amount,
        })
        
        mu.Lock()
        if err != nil {
            errors["risk"] = err
        } else {
            results["risk"] = resp
        }
        mu.Unlock()
    }()
    
    wg.Wait()
    
    // 检查是否有错误
    mu.Lock()
    if len(errors) > 0 {
        mu.Unlock()
        return nil, fmt.Errorf("服务调用失败: %v", errors)
    }
    
    // 所有预检查通过，进行支付
    client := paymentClient.(*ClientLBClient)
    paymentResp, err := client.ProcessPayment(ctx, &payment_pb.ProcessPaymentRequest{
        UserId: req.UserId,
        Amount: req.Amount,
        Method: req.PaymentMethod,
    })
    mu.Unlock()
    
    if err != nil {
        return nil, fmt.Errorf("支付失败: %v", err)
    }
    
    return &pb.CreateOrderResponse{
        OrderId:   generateOrderID(),
        PaymentId: paymentResp.PaymentId,
        Status:    "created",
    }, nil
}

配置文件示例：

# hybrid-lb-config.yaml
services:
  payment-service:
    strategy: client_lb
    config:
      discovery_type: "consul"
      endpoints: ["consul-1:8500", "consul-2:8500"]
      load_balancer: "least_response_time"
      health_check: true
      circuit_breaker:
        max_failures: 3
        timeout: 30s
  
  inventory-service:
    strategy: service_mesh
    config:
      namespace: "default"
      timeout: 30s
      retries: 3
  
  user-service:
    strategy: proxy
    config:
      proxy_address: "nginx-grpc-lb:9090"
      timeout: 60s
      keep_alive: true
  
  risk-service:
    strategy: etcd
    config:
      endpoints: ["etcd-1:2379", "etcd-2:2379", "etcd-3:2379"]
      load_balancer: "consistent_hash"
      hash_key: "user_id"
      
  notification-service:
    strategy: service_mesh
    config:
      namespace: "notification"
      circuit_breaker: true
      mirror_traffic: true
      mirror_percentage: 10

六种方案对比总结

方案	延迟	吞吐量	功能	复杂度	适用场景
K8s DNS	中等	高	基础	低	简单微服务
Headless	低	最高	中等	中等	高性能应用
ETCD	中低	高	高	高	跨集群场景
代理式	中等	中高	高	中等	企业级应用
Service Mesh	中等	中高	最高	高	云原生应用
混合策略	最优	最优	最高	最高	复杂业务场景

选择建议

高频交易系统：Headless Service + 客户端负载均衡

延迟要求极低
可以容忍一定的复杂度
需要自定义负载均衡算法

电商促销活动：Service Mesh (Istio)

需要流量分割和灰度发布
安全要求高
可观测性要求高

企业内部系统：代理式负载均衡 (Envoy/Nginx)

需要统一管理
多协议支持
运维团队成熟

跨云部署：ETCD + 客户端负载均衡

跨集群服务发现
一致性哈希支持
复杂的元数据管理

大型互联网应用：混合负载均衡策略

不同服务使用不同策略
根据业务特点优化
最大化整体性能

通过合理选择和组合这些负载均衡方案，可以构建出高可用、高性能、易管理的 gRPC 微服务架构。

业务场景介绍​

方案一：Kubernetes 原生服务发现 + DNS 负载均衡​

补充：会话保持 vs 负载均衡机制​

sessionAffinity 的含义​

会话关闭后的连接行为​

连接层面 vs 请求层面​

方案二：Headless Service + gRPC 客户端负载均衡​

方案三：ETCD 服务发现 + gRPC 负载均衡​

方案四：代理式负载均衡（Nginx/Envoy）​

方案五：Service Mesh（Istio/Linkerd）​

方案六：混合负载均衡策略​

六种方案对比总结​

选择建议​

业务场景介绍

方案一：Kubernetes 原生服务发现 + DNS 负载均衡

补充：会话保持 vs 负载均衡机制

sessionAffinity 的含义

会话关闭后的连接行为

连接层面 vs 请求层面

方案二：Headless Service + gRPC 客户端负载均衡

方案三：ETCD 服务发现 + gRPC 负载均衡

方案四：代理式负载均衡（Nginx/Envoy）

方案五：Service Mesh（Istio/Linkerd）

方案六：混合负载均衡策略

六种方案对比总结

选择建议